
12个大模型攒局玩“大富翁”:Claude3.5爱合作,GPT-4o最“自私”|谷歌DeepMind研究
12个大模型攒局玩“大富翁”:Claude3.5爱合作,GPT-4o最“自私”|谷歌DeepMind研究给大模型智能体组一桌“大富翁”,他们会选择合作还是相互拆台? 实验表明,不同的模型在这件事上喜好也不一样,比如基于Claude 3.5 Sonnet的智能体,就会表现出极强的合作意识。 而GPT-4o则是主打一个“自私”,只考虑自己的短期利益。
给大模型智能体组一桌“大富翁”,他们会选择合作还是相互拆台? 实验表明,不同的模型在这件事上喜好也不一样,比如基于Claude 3.5 Sonnet的智能体,就会表现出极强的合作意识。 而GPT-4o则是主打一个“自私”,只考虑自己的短期利益。
成立仅三年,估值180亿美金Anthropic正义迅雷不及掩耳之势,一步步蚕食OpenAI市场份额。在过去3个月,他们编程收入暴增10倍,还抢走了最火的Cursor,OpenAI的高管们彻底坐不住了!
全网独一份o1 pro架构爆料来了!首创自洽性机制打破推理极限,「草莓训练」系统首次揭秘。更令人震惊的是,OpenAI和Anthropic自留Orion、Claude 3.5超大杯,并不是内部失败了,而是它们成为数据生成的秘密武器。
传闻反转了,Claude 3.5 Opus没有训练失败。 只是Anthropic训练好了,暗中压住不公开。 semianalysis分析师爆料,Claude 3.5超大杯被藏起来,只用于内部数据合成以及强化学习奖励建模。 Claude 3.5 Sonnet就是如此训练而来。
围剿英伟达,数十万颗自研二代芯片超算在建!亚马逊祭出地表最强全家桶,多模态Nova击败GPT-4o。
我们需要的是「真正解放双手的智能体」。 最近一段时间,大模型领域正在经历智能体(AI Agent)引发的革命。Anthropic 推出的升级版 Claude 3.5 Sonnet,一经推出即引爆了 AI 圈。
AI自主研发会真的「失控」了吗?最新研究显示,Claude 3.5 Sonnet和o1-preview在2小时内的研发任务中,击败了50多位人类专家。但另一个耐人寻味的现象是,给予更长时间周期后,人类专家在8小时任务中优势显现。
Claude 3.5 Sonnet 应该是目前公认综合能力最好的基础模型。
测评大模型Agent能力,从未如此直观。 新旧两版Claude 3.5 Sonnet在《我的世界》里PK盖楼,差距不要太明显,引来大量围观。
刚刚,Claude 3.5 Haiku允许通过API访问,同一天,xAI也官宣Grok API也正式开启公测。